19 research outputs found

    Learning Morphological Normalization for Translation from Morphologically Rich Languages

    Get PDF
    Learning Morphological Normalization for Translation from Morphologically Rich Languages When translating from a morphologically rich language into English, source side word forms encode grammatical information that can be considered as redundant with respect to English, leading to data sparsity issues. A well-known way to mitigate this problem is to remove irrelevant information from the source through normalization. This pre-processing is usually performed in a deterministic fashion, using hand-crafted rules. This normalization is, in essence, suboptimal and needs to be adapted for each new language pair. We introduce here a simple way to automatically search for an optimal normalization of the source morphology with respect to the target-side language and show that it can improve machine translation.Lorsqu'ils sont traduits depuis une langue à morphologie riche vers l'anglais, les mots-formes sources contiennent des marques d'informations grammaticales pouvant être jugées redondantes par rapport à l'anglais, causant une variabilité formelle qui nuit à l'estimation des modèles probabilistes. Un moyen bien documenté pour atténuer ce problème consiste à supprimer l'information non pertinente de la source en la normalisant. Ce pré-traitement est généralement effectué de manière déterministe, à l'aide de règles produites manuellement. Une telle normalisationest, par essence, sous-optimale et doit être adaptée pour chaque paire de langues. Nous présentons, dans cet article, une méthode simple pour rechercher automatiquement une normalisation optimale de la morphologie source par rapport à la langue cible et montrons que celle-ci peut améliorer la traduction automatique

    The QT21 Combined Machine Translation System for English to Latvian

    Get PDF
    This paper describes the joint submis- sion of the QT21 projects for the English → Latvian translation task of the EMNLP 2017 Second Conference on Ma- chine Translation (WMT 2017). The sub- mission is a system combination which combines seven different statistical ma- chine translation systems provided by the different groups. The systems are combined using either RWTH’s system combination approach, or USFD’s consensus-based system- selection approach. The final submission shows an improvement of 0.5 B LEU compared to the best single system on newstest2017

    The QT21/HimL Combined Machine Translation System

    Get PDF
    This paper describes the joint submission of the QT21 and HimL projects for the English→Romanian translation task of the ACL 2016 First Conference on Machine Translation (WMT 2016). The submission is a system combination which combines twelve different statistical machine translation systems provided by the different groups (RWTH Aachen University, LMU Munich, Charles University in Prague, University of Edinburgh, University of Sheffield, Karlsruhe Institute of Technology, LIMSI, University of Amsterdam, Tilde). The systems are combined using RWTH’s system combination approach. The final submission shows an improvement of 1.0 BLEU compared to the best single system on newstest2016

    The semantical functioning of posture verbs in contemporary Russian : stojatʹ, sidetʹ, ležatʹ

    No full text
    Les verbes de position sont décrits du point de vue d'une invariance mise au point pour chacun d'entre eux en fonction de la diversité des contextes dans laquelle on les trouve. Cela conduit d'une part à considérer que dans certains contextes leur sens n'est pas inutile au contenu informatif de l'énoncé et qu'il n'est pas équivalent à celui d'un verbe d'existence. Au contraire, l'emploi d'un verbe de position par un locuteur correspond à un choix motivé par la désignation de quelque chose de plus que l'être ou la présence du sujet. D'autre part, cette invariance mène à distinguer clairement le fonctionnement sémantique de chacun de ces verbes alors qu'ils semblent entrer en concurrence lorsqu'ils apparaissent dans des contextes visiblement similaires.Posture verbs are described from the perspective of an invariance developed for each of them according to the diversity of the contexts where they can be found. It conduces, on the one hand, to consider that in some contexts their meaning is not ancillary to the informative content of the statement, and that it is not equivalent to the meaning of a being verb. In fact, the use of a posture verb by a speaker refers to a choice motivated by something more than the being or the presence of the subject. On the other hand, this invariance facilitates clear distinction of the semantical function of each of these verbs, while they may seem to have the same meaning, when they occur in contexts which seem similar at first glance

    Le fonctionnement sémantique des verbes de position en russe contemporain : stojatʹ, sidetʹ, ležatʹ

    No full text
    Posture verbs are described from the perspective of an invariance developed for each of them according to the diversity of the contexts where they can be found. It conduces, on the one hand, to consider that in some contexts their meaning is not ancillary to the informative content of the statement, and that it is not equivalent to the meaning of a being verb. In fact, the use of a posture verb by a speaker refers to a choice motivated by something more than the being or the presence of the subject. On the other hand, this invariance facilitates clear distinction of the semantical function of each of these verbs, while they may seem to have the same meaning, when they occur in contexts which seem similar at first glance.Les verbes de position sont décrits du point de vue d'une invariance mise au point pour chacun d'entre eux en fonction de la diversité des contextes dans laquelle on les trouve. Cela conduit d'une part à considérer que dans certains contextes leur sens n'est pas inutile au contenu informatif de l'énoncé et qu'il n'est pas équivalent à celui d'un verbe d'existence. Au contraire, l'emploi d'un verbe de position par un locuteur correspond à un choix motivé par la désignation de quelque chose de plus que l'être ou la présence du sujet. D'autre part, cette invariance mène à distinguer clairement le fonctionnement sémantique de chacun de ces verbes alors qu'ils semblent entrer en concurrence lorsqu'ils apparaissent dans des contextes visiblement similaires

    Learning Morphological Normalization for Translation from and into Morphologically Rich Languages

    No full text
    International audienceWhen translating between a morphologically rich language (MRL)and English, word forms in the MRL often encode grammaticalinformation that is irrelevant with respect to English, leading to data sparsity issues. This problem can be mitigated by removing from the MRL irrelevantinformation through normalization. Such preprocessing is usually performed in a deterministic fashion,using hand-crafted rules and yielding suboptimal representations. We introduce here a simple wayto automatically compute an appropriate normalization ofthe MRL and show that it can improve machine translation in both directions
    corecore